RI-TAL : le TAL au service de la RI

نویسندگان

  • Laurent Candillier
  • Julien Hénot
چکیده

How may Natural Language Processing serve Information Retrieval? This paper provides some clues in the context of the implementation of a search engine within an industrial application, TokTokTok, that gathers a large set of heterogeneous data about products of many kinds. We demonstrate that the enrichment of the database by semantic treatments improves the results of the search engine. On the other side, the integration of these semantic data into the core of the Information Retrieval system proves to be less effective. Using the NLP as preprocessing of IR thus reveals itself as more relevant than its deeper integration. MOTS-CLÉS : Recherche d’Information, Traitement Automatique des Langues, ElasticSearch, Application industrielle.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Vectorisation, Okapi et calcul de similarité pour le TAL : pour oublier enfin le TF-IDF (Vectorization, Okapi and Computing Similarity for NLP : Say Goodbye to TF-IDF) [in French]

RÉSUMÉ Dans cette prise de position, nous nous intéressons au calcul de similarité (ou distances) entre textes, problématique présente dans de nombreuses tâches de TAL. Nous nous efforçons de montrer que ce qui n’est souvent qu’un composant dans des systèmes plus complexes est parfois négligé et des solutions sous-optimales sont employées. Ainsi, le calcul de similarité par TF-IDF/cosinus est s...

متن کامل

Variabilité des performances des outils de TAL et genre textuel

RÉSUMÉ. Nous rapportons dans cet article un ensemble de résultats liés à la mise au point d’une base de marqueurs de relations lexicales pour un outil d’aide à la réalisation d’ontologies à partir de textes, CAMÉLÉON. L’évaluation de ces patrons sur huit corpus différents montre une grande variation de leurs performances selon le corpus testé. Cela nous conduit à deux sortes de conclusions : 1....

متن کامل

Applying a family of IR models to text description-based service retrieval

In the study reported in this paper, we apply a family of Information Retrieval (IR) models to overcome the problem of retrieving services, whose descriptions match users’ queries given in a free text style. This family is composed by four models which have not been applied in prior research on IR-based service discovery. The two first models are based on matrix factorisation models applied to ...

متن کامل

ANTICOAGULANT SCREENING OF MARINE ALGAE FROM MEXICO, AND PARTIAL CHARACTERIZATION OF THE ACTIVE SULFATED POLYSACCHARIDE FROM Ei

Mu ñoz-Ochoa, M., J. I. Mu ri llo-Alva rez, Y. E. Ro drí guez-Mon te si nos, G. Her nán dez-Car mo na, D. L. Arvi zu-Hi gue ra, J. Pe ral ta-Cruz & J. Li zar di-Men do za De par ta men to de De sa rro llo de Tec no lo gías, Cen tro Inter dis ci pli na rio de Cien cias Ma ri nas, Insti tu to Po li téc ni co Na cio nal. Apar ta do Pos tal 592. 23000 La Paz, Mé xi co. 2 De par ta men to de Quí mi ...

متن کامل

Filtered Composition and Markers for a Flexible Edit-Distance. Application to the Correction of Out-Of-Vocabulary Words

RÉSUMÉ. Nous présentons une implémentation flexible et originale de la distance d’édition : la composition filtrée, un type particulier de composition de deux machines à états finis au travers d’un filtre qui modélise l’ensemble des opérations d’édition valides. Le filtre est un transducteur pondéré ou une cascade de transducteurs pondérés. Il est obtenu par compilation de règles de réécriture ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2016